Según la web https://rdrr.io el estudio teengamb es un estudio realizado en el Reino Unido sobre los gastos en juegos de azar de los adolescentes.
data(teengamb,package="faraway")
head(teengamb)
## sex status income verbal gamble
## 1 1 51 2.00 8 0.0
## 2 1 28 2.50 8 0.0
## 3 1 37 2.00 6 0.0
## 4 1 28 7.00 4 7.3
## 5 1 65 2.00 8 19.6
## 6 1 61 3.47 6 0.1
summary(teengamb)
## sex status income verbal
## Min. :0.0000 Min. :18.00 Min. : 0.600 Min. : 1.00
## 1st Qu.:0.0000 1st Qu.:28.00 1st Qu.: 2.000 1st Qu.: 6.00
## Median :0.0000 Median :43.00 Median : 3.250 Median : 7.00
## Mean :0.4043 Mean :45.23 Mean : 4.642 Mean : 6.66
## 3rd Qu.:1.0000 3rd Qu.:61.50 3rd Qu.: 6.210 3rd Qu.: 8.00
## Max. :1.0000 Max. :75.00 Max. :15.000 Max. :10.00
## gamble
## Min. : 0.0
## 1st Qu.: 1.1
## Median : 6.0
## Mean : 19.3
## 3rd Qu.: 19.4
## Max. :156.0
Tal y como aparece en el estudio la variable sexo se debería convertir a factor, la variable status se refiere una puntuación que valora el estatus socioeconómico de los padres en relación a su ocupación, income son los ingresos semanales, verbal es la puntuación en un test verbal y tamble son los gastos en juegos de azar.
En el resumen, salvo en el sexo y en gastos no parece haber datos con valores de 0, aunque son bastante lógicos, sería necesario comprobar el numero de valores faltantes.
apply(X = is.na(teengamb), MARGIN = 2, FUN = sum)
## sex status income verbal gamble
## 0 0 0 0 0
Vemos que no hay valores faltantes y que los valores numéricos son hasta cierto punto coherentes.
teengamb$sex<-factor(teengamb$sex)
levels(teengamb$sex)<-c("Fem","Masc")
teengamb$sex
## [1] Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc Masc
## [16] Masc Masc Masc Masc Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem
## [31] Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem Fem
## [46] Fem Fem
## Levels: Fem Masc
summary(teengamb)
## sex status income verbal gamble
## Fem :28 Min. :18.00 Min. : 0.600 Min. : 1.00 Min. : 0.0
## Masc:19 1st Qu.:28.00 1st Qu.: 2.000 1st Qu.: 6.00 1st Qu.: 1.1
## Median :43.00 Median : 3.250 Median : 7.00 Median : 6.0
## Mean :45.23 Mean : 4.642 Mean : 6.66 Mean : 19.3
## 3rd Qu.:61.50 3rd Qu.: 6.210 3rd Qu.: 8.00 3rd Qu.: 19.4
## Max. :75.00 Max. :15.000 Max. :10.00 Max. :156.0
Estudio gráfico
g1<-ggplot(teengamb,aes(x=status))+geom_histogram(bins = 30)
g2<-ggplot(teengamb,aes(x=status))+geom_density()
g3<-ggplot(teengamb,aes(x=status,y=gamble))+geom_point()
g4<-ggplot(teengamb,aes(x=income))+geom_histogram(bins = 30)
g5<-ggplot(teengamb,aes(x=income))+geom_density()
g6<-ggplot(teengamb,aes(x=income,y=gamble))+geom_point()
g7<-ggplot(teengamb,aes(x=verbal))+geom_histogram(bins = 30)
g8<-ggplot(teengamb,aes(x=verbal))+geom_density()
g9<-ggplot(teengamb,aes(x=verbal,y=gamble))+geom_point()
grid.arrange(g1,g2,g3,g4,g5,g6,g7,g8,g9, ncol = 3)
Se ve claro que un nivel socioeconómico bajo se asocia con gran cantidad de personas que consumen juegos de azar, sin embargo el gasto mayor se da en jóvenes de alto poder adquisitivo , como es de esperar.
Los gastos altos también se dan en individuos con menor indice en el test verbal, sería interesante ver si los individuos con alto consumo son de nivel socieconómico bajo y alto nivel de ingresos.
plot_ly(teengamb, x=~income, y=~verbal, z=~gamble, type="scatter3d", mode="markers", color=~gamble)
plot_ly(teengamb, x=~status, y=~verbal, z=~gamble, type="scatter3d", mode="markers", color=~gamble)